Qualità dei dati

  • Testo
  • Bibliografia4
  • Voci correlate
La "qualità dei dati" è definita dallo standard ISO/IEC 25012 "Data quality model" del 2008, nell'ambito dell'ISO, International Organization for Standardization. Si veda www.iso.org.
Per dato si intende la rappresentazione simbolica reinterpretabile (numero, segno, oggetto, ecc.) di un aspetto della realtà, di un concetto o di un fatto reale.
Nello standard si definiscono
a) cinque caratteristiche "inerenti" il dato, cioè connesse al valore intrinseco del dato stesso a prescindere dal "sistema" che lo elabora;
b) sette caratteristiche che dipendono sia dal dato stesso che dal sistema; ed infine
c) tre caratteristiche esclusive del sistema che trattano il dato senza entrare nel merito del suo contenuto.

a) Le caratteristiche "inerenti" il dato riguardano:
  • accuratezza, intesa come perfetta rispondenza con il mondo reale che rappresenta;
  • attualità, cioè del giusto tempo in cui il dato è utilizzato;
  • coerenza, quindi un dato non contraddittorio con altri dati;
  • completezza, presente per tutti gli attributi necessari;
  • credibilità, proveniente da fonte certa.


b) Le caratteristiche "inerenti e dipendenti dal sistema":
  • accessibilità: il dato è accessibile a tutti, anche dai disabili;
  • comprensibilità: il significato del dato è chiaro ed immediato;
  • conformità: il dato risponde a regolamentazioni specifiche, anche locali;
  • efficienza: il dato è utilizzabile con risorse accettabili e tempi adeguati allo scopo;
  • precisione: il dato è del livello di misura necessario;
  • riservatezza: il dato può essere utilizzato solo da utenti autorizzati;
  • tracciabilità: gli accessi al dato sono registrati;


c) Le caratteristiche "dipendenti dal sistema":
  • disponibilità, il dato necessario è disponibile e re-interrogabile;
  • portabilità, il dato può migrare da un ambiente all'altro;
  • ricoverabilità, il dato è salvato in un ambiente sicuro ed è recuperabile;


Lo standard non definisce una priorità delle caratteristiche, che dipende propriamente dal contesto d'uso. Anche se lo standard è stato concepito con particolare riguardo al mondo del software, è applicabile anche a molti ambiti amministrativi, organizzativi, sociali, psicologici.

Di seguito si riportano alcune considerazioni qualitative e statistiche dell'autore.

Accuratezza
Tale caratteristica riguarda la rispondenza del dato alla realtà. Se l'accuratezza riguarda un dato singolo c'è da chiedersi sempre se il dato sia affetto da errore, quale strumento di rilevazione sia stato usato, quale sia la sua classificazione più adatta.
Nel caso di rilevazioni campionarie la caratteristica dell'accuratezza di un dato, medio o percentuale, rientra nella problematica della significatività statistica e delle stime. Il dato in esame è rispondente al dato dell'intera popolazione? Il campione è rappresentativo?
Nel caso invece di elaborazioni descrittive di dati non campionari, ma relative al totale della popolazione occorre tener presente che in esse possono essere presenti casi anomali (outlier) che alterano il dato, medio o percentuale. La deviazione standard in tali casi può essere analizzata per evidenziare casi abnormi che fanno risultare elevata la media e possono alterare l'accuratezza della misura. Oppure può essere utile l'esame in percentili della distribuzione, per studiare il posizionamento dei dati in intervalli prefissati. I casi abnormi andrebbero verificati, prima di includerli nelle elaborazioni.

Attualità
Il dato è elaborato o fornito nel giusto tempo richiesto. In alcuni casi è sufficiente un aggiornamento del dato nell'ordine dei mesi, in altri dei giorni o secondi, se non meno. Spesso i dati non attuali derivano, nel campo amministrativo, da processi burocratici obsoleti e non efficienti. Spesso c'è un ritardo tra il verificarsi del fenomeno reale rappresentato dal dato e la sua raccolta o memorizzazione nei sistemi. È frequente che appaiono in liste di soggetti, iscritti, abbonati, ecc. alcuni dati obsoleti, non cancellati al momento giusto. A causa di ciò spesso si dispone, per mancanza di standard e di aggiornamento, anche di informazioni ridondanti, duplicati. Su internet spesso sono offerti dati non attuali, in quanto non esiste tuttora una cancellazione automatica delle informazioni obsolete.

Coerenza
Si può parlare di coerenza "interna" di dati in una banca dati, come di una coerenza "esterna" tra dati di banche dati diverse. Questo è un problema di grandi dimensioni, che coinvolge anche i processi di condivisione delle informazioni, degli standard adottati per descrivere i fenomeni e della disponibilità immediata dei dati, più che le tecnologie utilizzate. Siamo in presenza di dati con lo stesso nome, ma diversi nel contenuto, oppure con nomi diversi, ma riguardanti lo stesso fenomeno.
La coerenza può risultare, ad esempio, nella comparazione di dati di serie storiche o di fenomeni correlati. In alcuni casi è misurabile con indici di distanza o analisi di correlazione. Esaminando tale caratteristica si entra nel campo della semantica e delle ontologie di sistemi. Prestare attenzione alla coerenza, apre le porta alla interoperabilità dei sistemi.

Completezza
I dati sono spesso incompleti all'interno di un unico concetto logico omogeneo: un indirizzo senza un codice postale, senza l'anno di prima occupazione, un riferimento personale senza un numero di telefono, una assenza della data di scadenza o di emissione, e così via. La completezza riguarda anche omissioni di soggetti in elenchi, assenza di record in generale, come per esempio l'elenco di studenti di un'università o l'elenco di cittadini residenti.

Credibilità
Il dato è credibile se emesso dall'ente ufficiale o da persona esperta. I dati soggetti ad analisi di accuratezza, attualità, coerenza, completezza, se verificati con un processo certificato, sono probabilmente altamente credibili. Il problema della credibilità su internet (o nelle email tipo spam…) è in crescita.

Accessibilità
Generalmente si intende la capacità dell'utente di navigare e reperire/fornire informazioni su web. I dati accessibili sono "raggiungibili" dall'utente interagendo con il software. In particolare il termine è usato riferendosi al mondo dei disabili. In Italia la problematica dell'accessibilità dei dati, e dell'accessibilità del software, è regolamentata dalla legge 4/2004 "Disposizioni per favorire l'accesso dei disabili agli strumenti informatici" e dai successivi decreti attuativi.

Comprensibilità
Con tale caratteristica si entra pienamente nel mondo dell'HCI, cioè della Human Computer Interaction. Un dato è comprensibile se è in sintonia con il linguaggio ed il mondo culturale dell'utente. Molte volte i dati, ed i relativi metadati, cioè informazioni supplementari o nomi dei dati, sono comprensibili dal progettista esperto che li introduce nell'applicazione software, ma possono risultare di difficile comprensione da parte dell'utente. Porsi dal punto di vista dell'utente finale è il miglior metodo per produrre dati comprensibili, chiari, semplici. Nei test di usabilità si può verificare la comprensibilità dei dati, cioè con un'attenta osservazione anche in laboratorio di compiti sperimentali degli utenti; in genere tali test sono effettuati da psicologi più che da informatici. Infine è da non trascurare che tale caratteristica riguarda anche la comprensibilità dei grafici statistici, di ogni visualizzazione che espone dati, di moduli o questionari.

Conformità
Nei casi in cui la qualità dei dati è governata da regole "locali", il fattore di conformità prevede che ci si deve attenere a tali regole. È il caso del Codice italiano sulla privacy.

Efficienza
I dati si rendono disponibili in modo efficiente e la loro occupazione di memoria è ottimizzata.

Precisione
Ci si riferisce all'unità di misura adottata. Un grado di precisione di un metro è sufficiente per i suggerimenti di un navigatore satellitare mentre guidiamo. Una precisione molto maggiore è indispensabile ad esempio durante una operazione chirurgica con laser.

Riservatezza
I dati personali, ed a maggior ragione quelli sensibili, come la religione, il credo politico, la salute, sono in quasi tutti i Paesi riservati e non diffondibili pubblicamente. Un dato crittografato risponde a criteri di riservatezza, se non trattato con algoritmi appositi.

Tracciabilità
Si intendono le informazioni sulle sequenze di accesso ai dati che vanno memorizzate, affinché in caso di necessità sia possibile ricostruire le letture/scritture di dati effettuate nel sistema informatico.

Disponibilità
Il dato è a disposizione degli utenti autorizzati. Ciò ha varie implicazioni che riguardano non solo la disponibilità fisica del mezzo di comunicazione (internet, linee dedicate, ecc.), a garanzia della quale si possono attivare soluzioni di "business continuity", ma anche la possibilità del diritto ad accedere e su quali dati. Tale fattore pone l'interrogativo riguardante "chi è il proprietario" dei dati e "chi" può disporne. A livello territoriale si può pensare a dati disponibili a livello nazionale, regionale, provinciale, comunale, aree metropolitane. A livello amministrativo si può pensare ai vari enti di competenza, nei quali talvolta si dispongono solo di dati parziali e non dell'intero insieme, obbligando in certi casi l'utente a varie trafile. A livello personale la disponibilità è collegata al tema della "privacy".

Portabilità
In un'epoca così diversificata di tipi di memorizzazione e di diversi apparati (cellulari, tablet, Pc, ecc.) i dati devono poter migrare facilmente da un sistema all'altro. Attualmente ad esempio le rubriche telefoniche dei cellulari, non risultano facilmente migrabili da un supporto all'altro.

Ripristinabilità
Il recupero dei dati, da una copia precedente, è un problema attualissimo. La cautela del "salvataggio" vale per i singoli Personal computer, come per i sistemi elaborativi di piccole, medie, grandi dimensioni. Le copie possono essere vicine nello spazio o, ancora meglio, fisicamente lontane. Rientra in tale caratteristica il tema conosciuto con il nome della "Conservazione permanente" dei documenti o "Dematerializzazione". Dopo aver memorizzato i dati da conservare per le generazione future, anche per secoli, ci sarà da interrogarsi circa la capacità di disporre dei mezzi di lettura dei supporti memorizzati. Il tema sconfina nel cosiddetto "disaster recovery" che prevede il salvataggio dei dati per successivi usi in caso di calamità.

Bibliografia

  • BATINI Carlo - SCANNAPIECO Monica, Qualità dei dati. Concetti, metodi e tecniche, Springer, Milano 2008.
  • ISO, ISO/IEC 25012: Software engineering. Software product Quality Requirements and Evaluation (SQuaRE). Data quality model, Ginevra 2008.
  • NATALE Domenico, La qualità dei dati e l’ISO/IEC 25012 in «Rivista UNI – Unificazione & Certificazione», 54 (2009) 2, pp.19-20.
  • NATALE Domenico, ISO/IEC Modelo de Calidad de datos y Data Governance in CALERO C. et al., Calidad del producto y proceso software, Ra-Ma, Madrid 2010, pp.79-89.

Documenti

Non ci sono documenti per questa voce

Note

Come citare questa voce
Natale Domenico , Qualità dei dati, in Franco LEVER - Pier Cesare RIVOLTELLA - Adriano ZANACCHI (edd.), La comunicazione. Dizionario di scienze e tecniche, www.lacomunicazione.it (22/11/2024).
CC-BY-NC-SA Il testo è disponibile secondo la licenza CC-BY-NC-SA
Creative Commons Attribuzione-Non commerciale-Condividi allo stesso modo
1398